Loading...
机构名称:
¥ 2.0

在本报告中,我们介绍了 Qwen2.5,这是一系列全面的大型语言模型 (LLM),旨在满足多样化的需求。与之前的迭代相比,Qwen 2.5 在预训练和后训练阶段都有了显著的提升。在预训练方面,我们将高质量的预训练数据集从之前的 7 万亿个 token 扩展到 18 万亿个 token,为常识、专家知识和推理能力提供了坚实的基础。在后训练方面,我们实现了超过 100 万个样本的复杂监督微调,以及多阶段强化学习,包括离线学习 DPO 和在线学习 GRPO。后训练技术显著增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令跟随。

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第1页

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第2页

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第3页

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第4页

arXiv:2412.15115v2 [cs.CL] 2025 年 1 月 3 日PDF文件第5页

相关文件推荐